iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 13
0
Data Technology

職場老鳥的資料科學初體驗-R語言專案實作紀錄系列 第 13

(Day13)取出有幫助的分詞資料

  • 分享至 

  • xImage
  •  

接下來,回到本專案的正題,直接把先前爬出的第一層議題欄位,餵進去處理。

View(as.character(dfl$title))
seg<-mixseg[as.character(dfl$title)]
View(seg)

江~江~ 結果就是長這樣子
https://ithelp.ithome.com.tw/upload/images/20171215/20107033h1FSbBf6wi.png
來看看前50是那些內容吧!

segA_top50<-sort(table(seg),decreasing = TRUE)[1:50]
View(segA_top50)

https://ithelp.ithome.com.tw/upload/images/20171215/20107033tRmUIAQeOM.png
看來是一些單字無義的詞句,用掉最多! 直接濾掉字元長度>1

segB<-seg[nchar(seg)>1]#table
segB_top50<-sort(table(segB),decreasing = TRUE)[1:50]#table
segB_top50=as.data.frame(segB_top50)#table->data.frame

View(segB_top50)

https://ithelp.ithome.com.tw/upload/images/20171215/20107033mqC2NhOzWW.png


上一篇
(Day12)jiebaR的分詞引擎設定
下一篇
(Day14)玩一下文字雲
系列文
職場老鳥的資料科學初體驗-R語言專案實作紀錄30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言